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基于 属性 特征 的 评论 文本 情感 极 性 量化 分 析 - 
李 慧 此 亚 青 
(西安 电子 科技 大 学 经 济 与 管理 学 院 西安 710126) 


摘要 : 【 目的 】 从 评论 对 象 的 属性 特征 出 发 解决 情感 极 性 量化 问题 。[ 方法 】 将 在 线 评论 文本 分 解构 建 三 层 评论 
体系 , 即 评论 对 象 -对 象 属性 -评论 描述 ,从 属性 层级 抽取 属性 词 集 和 对 应 的 评论 集 , 考虑 评论 对 象 属性 特征 的 
不 同 影响 , 引入 属性 因子 , 并 对 TFIDF 进行 改进 用 以 计算 属性 因子 ; 结合 评论 模式 和 评论 语 境 提出 基于 属性 特 
征 的 评论 情感 量化 分 析 算 法 并 采用 Python 语言 予以 实现 。[ 结果 】 相 较 于 传统 机 器 学 习 分 类 算法 (NB、SVMD)、 
属性 因子 设置 为 等 权重 时 ， 本文 算法 在 评论 文本 情感 分 类 准确 性 方面 有 显著 提高 。[ 局 限 】 评 论 集 领 域 选择 方面 
具有 局 限 性 , 量化 算法 在 系数 设 定 方面 存在 主观 性 。[ 结论 】 本 文 算法 能 有 效 解 决 情感 极 性 量化 问题 ,进一步 提 
高 了 情感 分 类 准确 性 。 
关键 词 : 评论 文本 ”属性 因子 ”评论 模式 ”情感 极 性 
分 类 号 : G250 

DOT: 10.11925/infotech.2096-3467.2017.0338 


1 引 此 很 多 学 者 从 属性 特征 角度 研究 在 线 评论 ,识别 评论 
文本 中 的 属性 特征 词 和 情感 词 ， 从 而 确定 情感 倾向 。 

各 类 电 商 平台 和 社交 网 站 每 天 都 会 产生 大 量 的 在 当前 针对 属性 特征 的 评论 文本 情感 研究 可 以 分 为 
线 评 论 。 通 过 对 在 线 评论 文本 进行 情感 分 析 不 仅 能 够 三 类 : 一 是 属性 特征 词 的 抽取 算法 人 研究; 二 是 从 属性 
辅助 商家 进行 决策 制定 和 网 络 营销 ,还 有 助 于 与 情 分 。 词 角度 出 发 , 通过 构建 领域 情感 词典 进行 评论 挖 气 分 
析 和 帮助 用 户 制定 购买 决策 。 情 感 分 析 是 对 在 线 评论 。 析 ; 三 是 从 < 属性 , 情感 词 > 对 出 发 , 结合 属性 影响 和 
文本 进行 研究 分 析 的 一 个 热点 方向 。 早 期 的 研究 主要 ”语义 进行 情感 倾向 分 析 。 在 属性 特征 词 抽取 方面 Hu 
侧重 于 篇 章 级 和 句子 级 的 整体 情感 判定 , 但 是 不 同 用 等 四 利用 规则 提取 出 高 词 频 的 名 词 和 名 词性 短语 作为 
户 在 制定 购买 决策 或 选择 服务 时 关注 的 属性 特征 并 不 ”高 频 属性 , 该 方法 的 问题 是 属性 词 过 于 分 散 , 且 没 有 
相同 。 如 果 用 户 对 其 关注 的 产品 属性 特征 的 情感 极 性 ”进行 归 类 筛选 导致 实 验 的 准确 度 比 较 低 。Ma 等 中 结 
没有 了 解 清楚 前 ， 基 本 不 会 产生 购买 意向 。 对 于 商家 。” 合 LDA 与 同义词 林 ， 从 17 049 条 数码 相机 评论 中 抽取 
来 说 , 商品 或 服务 属性 特征 的 优 劣 尤为 重要 , 商家 如 。 ”属性 ,以 名 词 和 名 词性 短语 作为 候选 属性 词 , 采用 
果 没 有 从 用 户 反 馈 中 了 解 到 其 对 产品 或 服务 实质 特征 LDA 生成 候选 属性 词 列表 , 结合 同义词 林 对 其 进行 扩 
的 情感 倾向 , 在 制定 产品 或 服务 的 改进 方案 时 就 不 能 ” 展 , 但 是 忽略 了 属性 词 上 下 文 信息 。 周 清 清 等 由 利用 高 
够 有 针对 性 地 制定 方案 , 反之 也 影响 着 商家 绩效 站, 因  ” 频 名 词 构建 候选 属性 词 , 通过 深度 学 习 构 建 候选 属性 


了 中 
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词 向 量 , 根据 属性 词 向 量 完 成 候选 属性 词 聚 类 ,得 到 
目标 候选 属性 词 集 , 这 种 方法 能 够 更 加 全 面 发 现 评论 
对 象 细 粒度 属性 , 但 在 噪音 过 滤 方 面 仍 需 加 强 , 对 于 
冷门 属性 效果 较 差 。 

由 于 属性 词 通常 和 情感 词 协 同 出 现 ， 且 存在 语义 


包括 属性 词 的 抽取 , 属性 情感 词 对 构建 , 属性 特征 影 
响 的 定性 分 析 , 基于 属性 特征 的 情感 倾向 判定 等 ， 存 
在 两 点 不 足 : 在 情感 量化 分 析 方 面 未 考虑 不 同属 性 特 
征 对 评论 对 象 而 言 重 要 性 存在 差异 ; 评论 对 象 的 情感 
倾向 并 非 直接 关联 到 情感 词 , 通常 是 通过 评论 对 象 不 


依存 关系 ， 娄 德 成 等 中 运用 依存 关系 对 抽取 属性 词 和 
情感 词 , 采用 手工 构建 属性 特征 层级 结构 。 但 手工 构 
建 方 法 耗 时 耗 力 ,而且 可 移植 性 较 差 , 倘若 产品 出 现 
新 的 功能 属性 , 需要 调整 原 属性 层级 结构 。 有 一 类 基 
于 共 现 和 极 性 传播 的 方法 不 仅 考虑 情感 词 之 间 的 共 
现 , 还 考虑 情感 词 与 情感 对 象 之 间 的 共 现 , 认为 在 产 
品 或 服务 的 评论 数据 中 , 情感 词 和 评论 对 象 不 会 孤立 
出 现 , 因此 将 情感 词 和 评论 对 象 进行 协同 抽取 1。 江 
腾 蛟 等 外 提出 基于 浅 层 语义 与 语法 分 析 相 结合 的 评价 
对 象 -情感 词 对 抽取 方法 , 设计 语义 角色 标注 和 依存 
句法 分 析 相 结合 的 评价 对 象 -情感 词 对 抽取 规则 , 在 
一 定 程度 上 解决 了 评价 对 象 构成 复杂 性 问题 。 在 情感 
分 类 研究 方面 , 不 少 学 者 考虑 属性 特征 对 情感 倾向 的 
影响 ,新 亚 辉 思 在 基于 属性 特征 的 产品 评论 挖掘 研究 
时 , 设计 基于 属性 的 情感 倾向 确定 算法 , 考虑 情感 词 、 
程度 词 和 和 否定 词 等 ,对 于 情感 极 性 如 何 量化 未 涉及 ， 
也 未 考虑 属性 特征 的 影响 差异 。Parkhe 等 [ "基于 影评 
进行 情感 分 析 时 引入 驱动 因子 , 利用 抽取 的 特征 词 和 
情感 词 构 建 领域 相关 的 特征 -情感 词 表 Ml， 驱动 因子 
高 的 评论 特征 对 影评 情感 极 性 影响 也 越 大 。 但 该 方法 
中 的 驱动 因子 值 是 实验 中 随机 分 配 的 ， 导致 驱动 因子 
的 影响 会 随 着 实验 不 同 而 发 生变 化 。 王 伟 等 ”利用 情感 
分 析 技 术 识 别 情感 特征 极 性 及 其 强度 , 结合 产品 特征 
的 信息 增益 , 建立 产品 特征 评价 对 用 户 购买 意愿 的 计 
量 经 济 模型 , 得 到 产品 属性 特征 重要 度 的 量化 方法 。 

上 述 研究 主要 侧重 于 属性 特征 的 情感 倾向 判定 ， 


同方 面 的 情感 描述 组 成 。 基 于 以 上 两 点 不 足 , 本 文 从 
属性 特征 词 抽取 出 发 , 结合 评论 分 层 思想 和 属性 特征 
重要 性 差异 , 设计 本 文 研 究 思路 。 


2 ”研究 框架 和 思路 设计 


运用 分 层 思 想 将 在 线 评论 分 解 为 三 层 : 评论 对 象 ; 
评论 对 象 的 不 同方 面 (本 文 定 为 属性 特征 ); 基于 属性 
特征 的 情感 表达 上 1。 从 属性 特征 层级 提出 评论 文本 情 
感 极 性 量化 分 析 方 法 如 下 : 

(1) 对 评论 集 进 行 预 处 理 (包括 分 词 .去 除 停 用 词 、 
词性 标注 、 词 频 统计 等 ); 

(2) 进行 主观 评论 句 筛 选 、 属 性 特征 词 集 和 
<Feature，Opinion> 对 抽取 。 考 虑 到 评论 对 象 的 属性 特 
征 重要 性 差异 , 引入 属性 权重 影响 因子 , 简称 为 属性 
子 , 并 通过 对 TFIDF 公式 进行 改进 计算 出 属性 因子 
值 ( 改 进 依据 : 如 果 评 论 集中 包含 属性 类 中 的 属性 词 
的 评论 数 越 多 ,该 属性 类 越 重 要 )， 从 而 避免 了 实验 中 
随机 分 配属 性 因子 而 产生 的 随机 影响 ; 

(3) 结合 语义 模型 、 属 性 因子 、 抽 取出 的 <Feature， 
Opinion> 集 、 评 论语 境 、 情 感 程度 词 、 否 定 词 、 连 词 
设计 了 情感 极 性 量化 算法 ; 

(4) 采用 标注 好 的 评论 语料库 进行 算法 实现 , 计 
算出 每 条 评论 的 情感 量化 分 值 并 根据 此 分 值 确 定 其 情 
感 倾 向 ,选择 准确 度 (Accuracy) 和 下 值 (F-score) 评 价 指 
标 评 价 本 文 提出 的 情感 极 性 量化 算法 , 具体 研究 流程 
如 图 1 所 示 。 
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| 文 [BE 评论 对 旬 情感 宜仁 量化 算法 ”| 
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图 1 基于 分 层 模型 的 评论 挖 气流 程 


数据 分 析 与 知识 发 现 


本 文 从 属性 特征 层 和 情感 描述 层 展开 深入 分 析 
研究 , 具体 研究 可 分 为 两 部 分 : 评论 对 象 属性 特征 抽 
取 和 语 境 分 析 ; 提出 基于 属性 特征 的 情感 极 性 量化 
算法 。 


3 评论 对 象 属性 特征 抽取 和 语 境 分 析 


基于 评论 对 象 的 情感 表达 主要 体现 在 产品 属性 的 
情感 描述 上 ， 对 于 不 同 评论 对 象 相同 情感 词 可 能 表达 
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图 3 属性 集 层次 结构 


假定 瑟 , 轧 ,…, Fx 是 按照 属性 重要 性 排列 , 为 了 
提高 情感 极 性 量化 结果 的 准确 性 , 引入 属性 类 重要 性 


再 
广 


Fe | | 


出 完全 不 同 的 情感 ， 对 于 同一 评论 对 象 的 不 同属 性 特 
征 , 相同 的 情感 词 也 可 能 产生 截然 相反 的 情感 倾向 。 
传统 的 情感 分 析 方 法 直接 基于 情感 词典 进行 分 析 ， 即 
筛选 出 评论 中 所 有 情感 词 并 判断 情感 倾向 ， 判 断 结 
即 为 评论 对 象 情 感 倾向 , 为 了 从 细 粒 度 角度 提高 情感 
分 类 准确 性 ， 本文 运用 三 层 模型 构建 评论 体系 中 如 
图 2 所 示 ， 即 情感 词 只 与 属性 特征 相关 , 评论 对 象 的 
情感 与 属性 特征 的 情感 相关 。 


Sentiment Sentiment Sentiment 
wordl word2 / wordn /YY 


图 2 三 层 评论 模型 


3.1 评论 对 象 属性 特征 

属性 是 对 一 个 对 象 抽象 的 刻画 , 产品 属性 是 产品 
性 质 的 集合 , 通常 从 评论 对 象 本 质 属性 和 非 本 质 属 性 
两 个 方面 确定 属性 特征 集 Z。 本 质 属性 是 产品 或 服务 
区 别 于 其 他 事物 的 属性 ; 产品 或 服务 的 非 本 质 属 性 包 
含 多 方面 利益 相关 群体 因素 ,如 价格 、 销 量 、 口 碑 等 。 
一 个 评论 对 象 的 属性 特征 词 集 表 示 为 : Z = {)}， 


因子 ga , 属性 因子 集 表示 为 {2;}i_1 ,属性 因子 越 大 ， 
属性 特征 的 情感 极 性 和 情感 极 性 值 对 评论 集 的 情感 分 
类 结果 影响 力 越 大 。 

(1) 确定 属性 特征 词 集 

根据 网 站 汇总 的 用 户 点 评 信 息 和 产品 详情 确定 属 
性 类 和 初步 属性 集 , 例如 : 携程 旅行 网 中 某 酒店 的 用 
户 点 评 信息 汇总 结果 为 : 位 置 (4.4)、 设 施 (4.5)、 服 务 
(4.4)、 环 境 (4.6)( 括 号 内 分 别 为 各 项 得 分 ), 酒店 详情 包 
含 : 服务 、 设 施 、 交 通 等 项 目 概 述 , 可 将 该 酒店 属性 类 
确定 为 : {位 置 、 设 施 、 服 务 、 环 境 、 交 通 }; 通过 统计 
词 频 筛 选 出 评论 集中 的 所 有 名 词 和 名 词性 短语 作为 候 
选 词 集 , 通过 点 互信 息 (PMD 识 别 出 与 评论 实体 互信 
息 值 高 的 名 词 和 名 词性 短语 作为 候选 产品 属性 特征 词 
集 (1, 将 搜狗 细胞 词 库 下 载 的 该 领域 最 新 词汇 加 入 该 
候选 集 予 以 扩充 , 结合 人 工 判定 、 同 义 词 林 等 将 扩充 
后 的 候选 属性 词 再 次 进行 筛选 并 加 入 到 属性 词 集中 。 
点 互信 息 计算 如 公式 (1) 所 示 。 
PP 人 
PCU)xP(LPJ) 

其 中 ，ph 为 评论 集中 的 名 词 和 名 词性 短语 ， 
P(Pj,ph) 为 评论 集中 属性 类 F, 和 名 词 或 名 词性 短语 
Ph 共同 出 现 的 概率 ，p(7)) 为 属性 类 出 现 的 概率 ， 
p(ph) 为 候选 属性 词 出 现 的 概率 。 每 条 评论 中 候选 词 
出 现 一 次 或 多 次 均 记 为 一 次 。 

(2) 计算 属性 因子 
由 于 在 线 评 论 都 为 短文 本 , 传统 长 文本 的 特征 权 
重 方法 不 再 适用 。 本 文 设计 属性 因子 计算 方法 采用 的 


PMI(F,, ph) = log j=1,2,…,K (1) 


其 中 表示 第 j 个 属性 特征 词 子 集 , j 的 取 值 范 围 是 
[LK], 即将 Z 划 分 为 XK 类 ; 每 个 属性 类 又 包含 若干 个 
子 属性 词 ， 可 表示 为 P= {Fj ,Fj ,…,F; }， 属性 类 层 
级 结构 表示 如 图 3 所 示 。 


依据 为 : 如 果 属 性 词 词 频 越 大 ， 且 包含 该 属性 词 的 文 
档 数 越 多 ， 则 该 属性 词 重要 程度 越 高 。 该 依据 基于 假 
设 : 针对 一 个 特征 项 , 它 在 一 个 文档 中 出 现 很 多 次 ， 
同时 也 出 现在 多 个 文档 中 , 那么 该 特征 词 具 备 较 大 的 


Data Analysis and Knowledge Discovery 


广 | ”Vi 人 [人 万 甘 日 工 | 
ChinaXiv 合作 期 逢 


研究 文 


区 分 度 '。 

TFIDF 是 一 种 衡量 特征 项 权 值 的 有 效 方法 ,特征 
项 的 重要 性 随 着 它 在 文档 中 出 现 的 次 数 成 正比 增加 ， 
但 同时 会 随 着 它 在 语料库 中 出 现 的 频率 成 反比 下 降 ， 
TF 表示 特征 项 词 频 , 为 了 抑制 噪声 加 权 , 引入 IDF 表 
示 逆 文档 频率 "中 。 而 属性 因子 权重 随 着 属性 词 频数 和 


表 1 双 词 情感 模式 


文档 频数 均 成 正比 增加 ， 即 : 如 果 属 性 类 子 属性 词 词 
频 和 越 高 ， 且 评论 集中 包含 属性 类 子 属性 词 的 评论 数 
越 多 , 该 属性 类 则 越 重要 。 因 此 用 TF 表示 文档 频率 ， 
同 理 为 了 抑制 噪声 加 权 , 采用 IDFW 表示 正文 档 频率 
( 随 着 文档 频率 的 增加 而 增 大 ), 同时 为 了 避免 属性 因 


Kk 
子 差 异 太 大 , 引入 归 一 化 思想 , 使 得 > wj =1，Qj; 计 
j=1 


i 


算 如 公式 (2) 和 公式 (3) 所 示 。 
xy 


ee O) 
全 
N 
idf, =1 
g “Ms ec)os @) 


其 中 ，wfp ,表示 在 评论 集 {C,}2 中 的 频率 ( 即 
妃子 属性 词 词 频 之 和 )，NX 表示 评论 集 的 总 数 ， 
f:P EC 表示 {C 和 包含 忆 的 评论 数 。 

3.2 ”主观 评论 中 <Feature, Opinion> 集 抽取 

在 线 评 论文 本 不 仅 包含 主观 评论 句 ， 也 包括 中 立 
性 的 客观 性 语句 , 还 有 一 些 不 相关 干扰 性 语句 。 因 此 
首先 需要 剔除 客观 评论 和 不 相关 评论 ,然后 对 评论 文 
本 进行 情感 词 抽 取 。 假定 一 个 句子 中 出 现 情感 词 ( 襄 义 
或 贬义 ), 它 就 是 主观 评论 句 , 反之, 则 为 客观 或 不 相 
干 评论 句 。 本 文 依据 情感 词 集中 的 情感 词 作 为 评判 依 
据 , 抽取 出 评论 集中 的 所 有 主观 评论 。 

获取 主观 评论 文本 情感 词 (评论 词 ) 的 方法 主要 分 
为 两 种 : 一 种 是 直接 抽取 主观 评论 中 的 所 有 情感 词 ; 
另 一 种 是 先 确定 评论 对 象 , 然后 有 针对 性 地 抽取 关于 
评论 对 象 的 情感 词 09。 本 文采 取 有 针对 性 的 情感 词 抽 
取 方 法 ,结合 评论 情感 模式 进行 情感 词 抽取 , 评论 情 
感 模式 参照 Turneyt "提出 的 双 词 模式 ,如 表 1 所 示 。 

其 中 , 林 表示 形容 词 , NN 表示 名 词 , NNS 表示 名 
词 复数 , VB 表示 动词 , VBD、VBN、VBG 分 别 表示 动 
词 过 去 时 、 过 去 分 词 和 动 名 词 , RB 表示 形容 词 , RBR 
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第 一 个 词 第 二 个 词 第 三 个 词 
模式 1 可 NN, NNS anything 
模式 2 RB,RBR,orRBS 可 not NN or NNS 
模式 3 NN or NNS JJ not NN or NNS 
模式 4 可 可 not NN or NNS 
模式 5 RB, RBR, or RBS vp, VPD, VEN, anything 
or VBG 


和 RBS 分 别 表示 副词 比较 级 和 副词 最 高 级 。 具体 抽取 
过 程 为 : 根据 确定 好 的 属性 特征 词 集 ， 定位 到 所 有 包 
含 属性 词 的 主观 评论 句 , 根据 表 1 的 双 词 情感 模式 抽 
取出 所 有 基于 属性 特征 的 情感 评论 。 抽 取 规 则 为 : 属 
性 词 6， 所 处 评论 句 包含 个 词 , 属性 词 的 所 处 位 置 
可 表示 为 : {Wi Ws Ws Pj Wr2s Wr3s WL}, 针对 
忆 及 其 前 后 词语 进行 模式 匹配 ,分别 进 行 前 向 匹配 
和 后 向 匹配 , 符合 表 1 中 任 一 种 模式 则 抽取 出 该 条 评 
论 句 中 {wji,ws,F ,wirz,wis3} 作为 属性 词 的 情感 评 
论 ， PF: 和 抽取 的 {Wri Wi Pi,» Wr2s Wir3} 构 成 
<Feature, Opinion> 集 。 

具体 匹配 过 程 举例 : 

首先 将 CO 与 模 
式 1 进行 匹配 , 奉 w 为 形容 词 ， 则 匹配 成 功 ,抽取 
{Wa Ws Dj, Wea Wr3} ; 若 不 满足 模式 1， 则 将 
Op 与 模式 2 进行 匹 
配 , 此 时 从 ,开始 进行 后 向 匹配 , 若 Wiawy3 分 别 为 
副词 和 形容 词 ， 则 匹配 成 功 ; 若 不 满足 模式 2， 则 继续 
与 模式 3 进行 匹配 ,此 时 严 为 第 一 个 词 , 车, 为 形 
容 词 , 则 匹配 成 功 , 否则 与 模式 4 进行 匹配 ,此 时 
Wiz 为 第 一 个 词 ， 若 wijswiss 均 为 形容 词 , 则 匹配 成 
功 , 否则 与 模式 5 进行 匹配 ,可 进行 前 向 匹配 或 后 向 
匹配 ， 如 果 WwW _nw 或 wawr3 分 别 为 副词 和 动词 , 均 
能 匹配 成 功 。 
3.3 ”基于 连词 的 POS 标注 

在 计算 属性 特征 情感 极 值 时 还 应 该 考虑 属性 特征 
词 所 在 的 评论 语 境 , 本文 主要 考虑 语 境 中 连词 对 情感 
的 影响 。 主观 评论 句 中 如 果 存 在 连词 (主要 考虑 转折 连 
词 、 让 步 关 系 连词 ), 则 会 对 评论 句 的 情感 倾向 产生 影 
响 ,， 转折 连词 会 改变 评论 情感 方向 , 递 进 连词 会 增强 
情感 倾向 中 。 例 如 : 酒店 服务 很 好 , 但 是 地 理 位 置 特 


别 差 ， 此 处 转折 连词 “但 是 ”使 评论 句 情 感 倾 向 发 生 由 

正 向 到 负 向 的 转变 且 负 向 情感 倾向 增强 。 考 虑 到 语 境 

中 不 同 连 词 对 情感 倾向 的 影响 ,为 了 提高 情感 极 值 计 

算 的 准确 性 ,对 主观 评论 文本 中 的 连词 进行 标注 ， 即 

先 构 建 包 含 转折 、 递 进 关 系 的 连词 词 库 ,如 表 2 所 示 。 
表 2 连词 词汇 表 


类 型 连词 


转折 但是、 偏偏 、 只 是 、 不 过 、 至 于 、 不 料 、 央 知 、 虽 
然 、 然 而 、 而 、 即 使 、 但 、 可 是 、 不 过 、 却 
滋 济 ” 而且、 更、 更加、 并 、 其 至、 不如、 不 及 、 乃 至 、 
一 并且、 况 、 况 且 、 何况 

根据 连词 标注 规则 进行 匹配 , 具体 的 标注 规则 如 下 : 


.转折 连词 : 如 果 连 词 英文 为 “<but”， 中 文 为 “但 是 ”"、“ 偏 
”、" 岂 知 "了 时， 连词 后 面 表达 的 情感 是 评论 者 侧重 的 情感 倾 
。 即 : 前 肯定 后 否定 极 性 为 否定 ， 前 否定 后 肯定 极 性 为 肯定 ; 

回 递 进 连 词 : 如 果 连 词 英文 为 “even、also、in addition” 
， 中 文 为 “而 且 、 更 、 甚 至 ”等 类 似 词 时 ,连词 后 面 表 达 的 
感 是 评论 者 侧重 的 情感 倾向 。 

4 评论 文本 情感 极 性 量化 算法 
4.1 基于 属性 特征 的 情感 极 性 量化 

评论 中 如 果 存 在 某 个 属性 的 描述 ， 则 包含 该 属性 
;= {Pj ,了 P,,…, 了 ; } 中 一 个 或 多 个 属性 特征 词 。 假定 
一 条 评论 中 如 果 存 在 某 个 属性 的 属性 特征 词 的 情感 表 
达 , 则 该 属性 特征 词 的 情感 倾向 是 确定 且 唯 一 的 。 将 
根据 抽取 规则 抽取 出 <Feature，Opinion> 集 拆 分 为 
< 了 ,5S,P> 对 ，5 为 情感 词 (评论 词 ) 通常 为 形容 词 ， 
P 为 表达 8 程度 的 修饰 词 , 一 般 为 程度 副词 和 否定 
词 。 程 度 副 词 是 体现 情感 强度 的 重要 指标 , 对 情感 词 
起 到 修饰 作用 , 通常 划分 为 强化 修饰 和 弱化 修饰 ， 如 < 
外 观 , 美 , 很 > 和 < 外 观 , 美 , 稍微 > 两 个 抽取 结果 ,很 
美和 稍微 美的 情感 程度 显然 不 同 。 单 个 否定 词 直 接 对 
情感 词 进 行 否定 修饰 ， 若 出 现 双 重 否 定 则 情感 倾向 不 
发 生变 化 。 本 文 将 否定 词 与 程度 副词 一 并 看 成 情感 修 
饰 词 。 

根据 抽取 <Feature，Opinion> 集 中 的 <F,S,P> 对 
计算 每 条 评论 的 属性 情感 极 性 值 ， 先 计算 <F,S> 傅 
感 极 性 ,然后 计算 <5,P> 极 性 权重 , 将 极 性 权重 与 
属性 因子 相 乘 得 到 属性 情感 极 性 值 。 

(1) 确定 属性 特征 情感 极 性 

如 公式 (0 和 公式 (5) 所 示 ，Posr 表示 第 i 条 评论 


可 全 
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中 属性 的 情感 为 讲义 的 权重 ，Neg" 表示 第 i 条 评 
论 中 属性 态 的 情感 为 贬义 的 权重 ，FPosr 表示 第 i 
条 评论 的 < 已,9, 已 > 对 中 的 情感 词 $ 出 现在 讲义 词 集 
中 的 频率 ，PFNegr ' 表示 第 ;条 评论 的 < 已,S,P> 对 
中 的 情感 词 8$ 出 现在 贬义 词 集中 的 频率 。 

FPosr 


lt 


Pos . = -9 
” FPosr + FNegp, 
| (4) 
FNegp, 
TVesgr = - 
2 FPosr + FNegp, 
SF = Posr ~ Negp, (5) 


FPosr 和 Fegr 具体 计算 方法 如 下 : 由 于 第 i 
条 评论 中 可 能 出 现 属性 类 ;的 多 个 子 属 性 词 , 日 其 所 
对 应 的 情感 词 赛 贬义 各 异 ,， 因此 分 别 计 算出 其 对 应 情 
感 词 出 现在 褒 、 贬 义 词 集中 的 频率 之 和 即 为 FPosr 和 
FNege,” o 

根据 sign(Se ) 函数 确定 第 i 条 评论 中 属性 的 
情感 极 性 ，1 表示 情感 极 性 为 正 , 0 表示 情感 极 性 为 中 
性 , -1 表示 情感 极 性 为 负 如 公式 (6) 所 示 。 


1 Sp, >0 
Sign(SF ) = 0 Sr=0 (6) 
一 | Sp <0 


(2) 情感 极 性 值 计算 

评论 6c; 的 所 有 < ,5,P> 对 中 情感 修饰 词 P 的 权 
重用 到 表示, 若 修 饰 词 为 程度 副词 ， 则 根据 程度 系数 
确定 程度 副词 权重 , 获 开 等 中 提出 把 程度 副词 划分 为 
6 个 等 级 ,本文 在 该 划分 基础 上 为 每 个 等 级 程度 副词 
定义 了 权重 即 程度 系数 ， 以 便 情 感 程度 量化 计算 ; 知 
修饰 词 为 否定 词 ， 则 根据 和 否定 词 个 数 确定 修饰 词 权 
重 。 考虑 到 语 境 问题 , 假定 每 条 评论 中 不 同属 性 的 情 
感 相 互 独 立 , 本 文 针 对 目标 语句 ( 即 : 包含 属性 特征 
的 评论 语句 ) 内 的 连词 类 别 设 置 连接 系数 ， 不 再 考虑 
目标 语句 外 的 连词 影响 。 根 据 3.3 节 中 构建 的 连词 库 
设 定 连词 影响 程度 系数 ， 转 折 连 词 表 示 情 感 倾 向 相 
反 且 情感 程度 加 深 ,， 递 进 关系 连词 表示 情感 倾向 增 
强 , 刘 玉 娇 等 中 在 基于 情感 词典 与 连词 结合 进行 中 
文 文本 情感 分 类 时 ， 考 虑 转折 连词 和 递 进 连 词 对 情 
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感 值 判定 的 影响 , 将 转折 连词 情感 影响 程度 设 定 为 
-1, 递 进 连词 情感 影响 程度 设 定 为 1.35， 本 文采 用 该 
设 定 值 对 连词 系数 进行 设 定 。 连 词 的 连接 系数 确定 如 
公式 (7) 所 示 。 


_1 ”连词 为 转折 连词 
Twi(Fj)=41.5 ”连词 为 递 进 连词 “(7) 


1 其 他 
评论 c 基于 忆 的 情感 极 性 量化 公式 如 公式 (8) 
所 示 。 
n(F,) 
m= > W(Fj,m)x SO(F;,m) x Wn (Fi,m) 
Wi a m=] 8 
ee 


其 中 , 鉴于 一 条 评论 句 中 可 能 出 现 某 个 属性 类 中 
[二 一 个 或 多 个 属性 词 的 评论 , 令 n(F) 为 属性 类 F 在 评 
CD 论 句 c 中 出 现 的 总 次 数 ， 刺 (P,z) 为 评论 名 中 第 加 次 
加 出现 属性 类 忆 中 的 属性 词 时 所 对 应 的 情感 修饰 词 的 
CN ”权重 ，SO(P,,m) 为 评论 中 第 m 次 出 现 属性 类 ;中 的 
\ 属性 词 时 所 对 应 的 情感 值 ， 即 情感 词 所 对 应 的 鹿 义 或 
贬义 权重 ，Wij (Fj,m) 为 评论 中 第 m 次 出 现 属性 类 
;中 的 属性 词 时 ,其 所 在 评论 语 境 中 (转折 或 递 进 ) 连 
词 的 权重 。 用, 为 第 i 条 评论 基于 属性 类 所 对 应 的 
平均 情感 极 性 值 。 

评论 语 料 集 {c1,c3,…,c,} 中 每 条 评论 c 基于 属性 
集 {, 情 ,…,Fx} 的 情感 极 性 值 计算 如 公式 (9) 所 示 。 


Score, = >。 j XW . (9) 

4.2 ”基于 属性 特征 的 情感 极 性 量化 算法 描述 

输入 : 评论 语 料 集 {c1,c,,…,c,} ， 属 性 集 {i, 忆 ，…, Fx}， 
语 料 集中 每 条 评论 中 的 < Feature,Opinion > 集 ,， 情感 词典 ， 
程度 副词 集 否定 词 集 ,连词 集 ; 

输出 : <C，Score > 情感 倾向 程度 量化 数据 库 。 

Begin: i=1,…,N; j=1,2,…,K; 下 表示 第 j 个 属性 ; 

GD 计算 属性 因子 wj ,采用 改进 的 TFIDF, 令 二 1, 三 1; 

加 扫描 属性 集 { 玉 , 己 ,…,}: 根据 情感 词典 判定 
< Feature,Opinion > 中 下 ;的 讲 贬 义 ， 并 初始 化 score(F))， 
初始 化 规则 为 : 王 对 应 的 Opinion 情感 词 为 讲义 词 , 初始 化 
Score( 耻 ) =1; F 对 应 的 Opinion 情感 词 为 贬义 词 ,初始 化 
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score(F,)=—l; 否则 score(F,)=0; 

图 扫描 程度 副词 集 : 更 新 score(F) ， 更 新 规则 为 : 
Score(F))=7rxsco1e(F) ,r 为 程度 副词 的 程度 系数 ; 

图 扫描 否定 词 集 : 更 新 score(F), 更 新 规则 为 : 
Score(P) =(-1)” x score()) ,n 为 否定 词 个 数 ; 

加 扫描 连词 库 : 更 新 score(F)), 更 新 规则 为 : 如 果 连 词 
为 转折 连词 ， 更 新 Score( 书 )= -1xscore(F)); 如 果 连 词 为 北 
进 连 词 ， 更 新 Score( F) =1.5x score(,); 

@ 如 果 =K, 计算 score(F) 如 公式 (10) 所 示 ， 然 后 执行 
步 又 (D);， 如 果 j<K, 广 / 六 1， 重 复 步 骤 @_ 步骤 @); 


n(F,) 
> score(F;,m) 


score(F,) = A (10) 


其 中 ，SCO7ECR] 表示 第 1 条 评论 基于 属性 的 情感 量 
化 评论 分 值 。 

@ 计 算 第 i 条 评论 的 情感 倾向 程度 值 score; ， 如 公式 
(1D 所 示 。 


SCO1ei = Da ;Xscore(F,) (11) 
了 


@ 如 果 1i=N， 则 stop, 输出 {score,}; 否则 : i=i+1， 
继续 扫描 语料库 的 < Feature,Opinion > 词 对 集 ， 重 复 步 又 加 
-步骤 CO)。 


5 实验 验证 与 结果 分 析 


5.1 数据 集 选 择 

本 文选 择 中 国 科学 院 大 学 谭 松 波 教授 发 布 的 数据 
集 ， 内 容 为 酒店 评论 语 料 可 从 数据 符 网 站 下 载 , 该 
数据 集 由 谭 松 波 老师 收集 整理 标注 , 语 料 来 自 携程 网 ， 
自动 采集 并 经 过 整理 而 成 , 语 料 集 规模 为 10 000 篇 ， 
为 了 方便 研究 , 语 料 集 被 整理 成 4 个 子 集 , 子 集 记录 
之 间 有 重复 , 前 三 个 都 是 平衡 数据 集 , 第 4 个 是 非 平 
稀 数 据 集 ， 如 表 3 所 示 。 正 面 评论 示例 :“ 房 间 内 环境 
还 是 不 错 的 ， 就 是 上 网 有 点 贵 ，12 块 一 个 小 时 , 还 有 
门口 修 路 ， 门 前 环境 不 好 。 负面 评论 示例 :“ 房 间 装 
修 陈旧 , 下 水 管 堵塞 ， 晚 上 折腾 了 2 个 多 小 时 , 还 是 没 
有 修好 。”。 涉 及 的 属性 特征 有 “内 外 环境 “网 络 * 装 
修 “ 设 施 ” 例 如:“ 上 网 有 点 贵 " 中 “ 贵 ”为 情感 词 ,“ 有 
点 ”为 程度 副词 。 


表 3 评论 语 料 集 


chnSenticorp2000 1 000 1 000 
chnSenticorp4000 2 000 2 000 
chnSenticorp6000 3 000 3 000 
chnSenticorp10000 3 000 7 000 
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用 词 、 词 频 统计 、 词 性 标注 等 ), 采用 3.1 节 中 的 属性 
特征 抽取 方法 ,选择 携程 旅行 官网 的 评论 汇总 信息 和 
酒店 详情 描述 , 确定 出 评论 对 象 的 7 个 属性 特征 类 为 : 
环境 、 设 施 、 餐 饮 、 交 通 、 服 务 、 价 格 、 位 置 , 将 词 
频 统计 结果 中 的 高 频 名 词 和 名 词性 短语 进行 点 互信 息 
(PMD 计 算 , 结合 同义词 林 和 酒店 特征 , 抽取 出 7 个 属 


War 


对 评论 语料库 进行 文本 预 处 理 ( 包 括 分 词 、 去 除 停 


性 类 中 的 子 属性 词 , 再 结合 搜狗 细胞 库 下 载 的 酒店 专 
用 名 词 对 属性 词 集 进行 扩充 , 结果 如 表 4 所 示 。 


表 4 本 文 抽取 的 属性 词 集 


属性 (Feature) 属性 词 
风景 、 环 境 、 和 氛围 、 外 观 、 外 表 、 条 件 、 了 卫生、 空气 、 酒 店 环境 、 酒 店 氛 围 、 宾 包 、 周 围 、 周 围 环境 、 周 边 环 境 、 
Fl: 环境 大 堂 、 大 党 环境 、 外 观 、 门 面 、 室 内 环境 、 室 内 、 屋 内 、 房 子 、 上 房间、 楼道、 走廊、 气味 、 味 道 、 考 味 、 油 漆 味 、 
烟 味 、 噪 音 、 噪 声 
设施 、 设 计 、 风 格 、 配 套 、 设 备 、 设 置 、 布 置 、 装 置 、 配 备 、 装 备 、 内 饰 、 内 里 、 建 筑 、 格 局 、 硬 件 、 硬 件 设施 、 
F2: 设施 软件 、 软 件 设施 、 装 修 、 卧 具 、 家 具 、 电 梯 、 客 房 、 标 准 间 、 房 间 面 积 、 房 间 大 小 、 光 线 、 空 间 、 电 视 、 网 络 、 网 
速 、 上 网 、 宽 带 、 空 调 、 墙 壁 、 墙 纸 、 床 、 毛 巾 、 床 单 、 被 罩 、 被 福 、 地 毯 、 地 板 、 地 面 、 卫 生 间 、 洗 手 间 、 厕 所 、 
浴室 、 淋 浴 、 浴 和 缸 、 热 水 、 洗 澡 、 洗 汶 用 品 、 个 人 用 品 、 房 间隔 音 、 隅 音 、 停 车 场 、 停 车 、 周 围 设施 、 通 风 
_ 餐饮、 就 餐 、 和 餐厅 、 人 饭菜、 上 菜 、 点 餐 、 叫 餐 、 早 餐 、 早 茶 、 早 点 、 早 饭 、 自 助 餐 、 下 午 茶 、 饮 食 、 味 道 、 品 种 、 
F3: 和 餐饮 > 
种 类 、 吃 饭 
F4: 交通 ， 交通、 周围 交通 、 路 线 、 出 行 、 外 出 、 打 车 、 进 出 、 购 物 、 景 点 
F5: 服务 服务 态度 、 态 度 、 表 情 、 语 气 、 口 气 、 服 务 意识 、 服 务 员 态 度 、 服 务 、 服 务 水 平 、 素 质 、 服 务 素 质 、 前 台 、 服 务 员 、 
门 童 、 服 务 生 、 前 台 服 务 、 酒 店 服务 、 管 理 、 退 房 、 客 服 
F6: 价格 价格 、 收 费 、 人 价钱、 价位、 性价比、 房价、 结账、 账单 、 手 续 
F7: 位 置 ”地理 位 置 、 人 位置、 地位、 地 点 、 地 方 、 地 段 、 场 所 、 火 车 站 、 机 场 


情感 修饰 词 系数 设 定 方法 如 3.1 节 所 述 , 将 知 网 


长 6” 混淆 矩阵 


(HowNeb 的 219 个 程度 副词 和 评论 集中 筛选 出 的 程度 
副词 结合 构成 程度 副词 集 划分 为 6 个 等 级 , 程度 系数 


Correct label 


True False 


依次 设置 为 :2、1.5、1.25、1.2、0.8、0.5, 若 评论 中 不 


Positive TP(True Positive) FP(False Positive) 
今 租 [ 汪 瑟 | 证 公 程 类 > 全 z :二 | 于 洲 信 全 
含 程度 副词 ， 则 令 程 度 系数 为 1， 和 否定 词 程度 系数 统 Negative TN(True Negative) FN(False Negative) 
一 设 定 为 -1。 连 词 连接 系数 设 定 见 4.1 市 。 情 感 词典 
选择 知 网 和 NTUSD 情感 词 ， 如 表 5 所 示 。 TP+TN 
Accuracy = (12) 
表 5 情感 词典 TP+TN+FP+EFN 
情感 词典 。 ”积极 词汇 。 ”消极 词汇 总 数 i (13) 
TP+TN 
HowNet 4566 4370 8 851 
NTUSD 2 846 8 325 10 027 Precision = 一 一 (14) 
TP+FP 
评价 指标 : 实验 结果 评价 指标 选择 信息 检索 领域 = 2 (15) 
P+R 


传统 的 Accuracy 和 Fi 值 对 实验 结果 进行 比较 分 析 , 本 
文选 择 的 评价 指标 含义 和 信息 检索 中 的 具体 含义 一 
致 , 根据 表 6 中 的 混 消 矩阵 计算 Accuracy 和 Fi 值 ， 
计算 如 公式 (12) 至 公式 (15) 所 示 。 


其 中 , TP、TN 分别 表示 预测 正确 的 正 向 类 别 和 负 
向 类 别 数 ; FP、FN 分 别 表示 预测 错误 的 正 向 类 别 数 和 
负 向 类 别 数 。 
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5.2 ”实验 结果 及 分 析 

(1) 本 文 量化 算法 实现 结 

基于 标注 好 的 酒店 评论 语料库 进行 训练 ， 首 先进 
行文 本 预 处 理 , 采用 Python 语言 进行 分 词 、 去 除 停 用 
词 、 词 频 统计 、 词性 标注 , 根据 抽取 的 属性 词 集 , 提取 
出 评论 集 的 所 有 < Feature, Opinion > 对 ; 然后 依据 选 
择 的 情感 词典 、 程 度 副 词 词典 、 否 定 词 集 、 连 词 集 , 将 
本 文 提 出 的 情感 强度 量化 算法 用 R 语言 进行 实现 , 计 
算出 评论 集中 每 条 评论 基于 属性 特征 的 情感 极 性 值 。 
并 根据 计算 结果 判定 每 条 评论 的 情感 倾向 ; 最 后 结合 
原始 已 标注 的 语料库 进行 对 比 研 究 , 情感 分 类 结果 通 


过 计算 混淆 矩阵 的 Accuracy 和 Fi 指标 予以 评价 。 
为 了 验证 本 文 提 出 情感 极 性 量化 算法 的 实现 效果 
属性 因子 对 算法 结果 的 影响 , 设置 两 组 对 照 实验 : 
中 对 照 实 验 1: 改进 本 文 算法 中 的 属性 因子 设置 方法 ， 
将 属性 因子 设 为 等 权重 ,其余 过 程 不 发 生变 化 ; 
@ 对 照 实 验 2: 采用 有 监督 机 器 学 习 (主要 用 SVM 和 
NB) 方 法 分 别 对 语料库 进行 多 次 情感 分 类 训练 。 
本 文 参考 文献 [15] 的 中 文 网 络 评论 的 情感 倾向 分 
析 研 究 中 的 训练 模型 训练 语料库 得 出 分 类 结果 , 计算 
混淆 矩阵 的 Accuracy 和 Fi 值 并 评价 本 文 情感 量化 算 
法 。 实 验 结果 如 表 7- 表 10 所 示 。 


和 


7 属性 因子 计算 结果 


属性 环境 设施 和 餐饮 交通 服务 价格 位 置 
属性 因子 0.501406 0.042195 0.029424 0.005845 0.389272 0.019860 0.011962 
属性 因子 (对 照 ) 0.142857 0.142857 0.142857 0.142857 0.142857 0.142857 0.142857 
表 8 部 分 情感 极 值 量化 示例 
评论 序列 预 处 理 后 的 评论 提取 属性 情感 对 POS 标注 计算 情感 极 值 情感 分 类 备注 
i < 风景 , 不 错 , 还 算 > 二 1 表示 无 
1 | 风景 还 算 不 错 | 和 餐 很 难 吃 ” 本 无 -0.305203935 ed 
Commentl | 风景 还 算 不 错 | 酒店 早餐 很 难 吃 < 早餐， 难 吃 ， 很 > 无 9 程度 副词 
< 家 有 具 ,大 , 1> 
| 房间 家 上 有 具 太 差 | 早 餐 质 量 太 差 | 环境 < 早餐 ， 差 ， 太 > Boe - 
二 目 : 2 —1.532515171 N 无 
Comment2 好 但 交通 太 差 < 环境 ,好 , 1> 但 : 转折 连词 7 无 
< 交通 ， 差 , 太 > 
ee 二 < 设施 , 不 好 , 1> 
日 序 四 其 -yA 他- 合 / 人 _ _ 
Comment3 站 组 < 服务 ， 不 好 ， 很 > 无 -2.035849256 N 无 
0 < 服务 意思 ， 差 ， 太 > 
| i < 环境 , 温 记 ， 比 较 > 
境 比 较 温 志 | 房间 比较 干净 | 卫 es 
Comment4 Se re 卫生 < 房 间 , 干净 ， 比 较 > 无 0.709084635 Pp 无 
人 < 设施 ， 完善， 较 > 
< 条 件 , 简陋 , 1> 
虽然 房间 的 条 件 略 显 简陋 | 但 环境 、 < 环境 ,不错 , 很 > 
C tS i ee 汪 日 : 转 者 连词 0.405485228 了 无 
omment5 服务 还 有 饭菜 都 还 是 很 不 错 的 < 服务 , 不 错 , 很 > 但: 转 考 连 六 
< 饭菜 , 不错, 很 > 
表 9 实验 对 比 结果 (Accuracy) 表 10 实验 对 比 结果 (Fi) 
Accuracy Wr 
语料库 属性 因子 。 传统 分 类 方法 本 文 语料库 属性 因子 。 传统 分 类 方法 本 文 
等 权重 NB SVM 算法 等 权重 NB SVM 算法 
chnSenticorp2000 88.33% 0.791 0.879 89.23% chnSenticorp2000 80.32% 0.732 0.793 81.13% 
chnSenticorp4000 89.56% 0.832 0.881 89.90% chnSenticorp4000 80.57% 0.792 0.801 82.60% 
chnSenticorp6000 90.01% 0.854 0.908 91.45% chnSenticorp6000 82.31% 0.801 0.818 84.25% 
chnSenticorp10000 91.59% 0.873 0.911 92.88% chnSenticorp10000 82.69% 0.809 0.821 85.19% 
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(2) 实验 结果 分 析 

分 析 表 7- 表 10, 表 7 中 除 表 头 外 第 一 行为 采用 改 
进 的 TFIDF 权重 计算 方法 计算 出 的 各 属性 的 权重 因 
子 , 第 二 行为 设置 的 等 权重 属性 因子 值 作为 对 照 实验 
1 与 本 文 提出 的 TFIDF 改进 方法 予以 比较 ; 表 8 为 本 
文 提出 的 量化 算法 计算 情感 得 分 的 部 分 示例 ; 表 9 和 
表 10 为 本 文 提出 的 量化 算法 进行 情感 分 类 的 结果 与 对 
照 实验 进行 情感 分 析 的 结果 对 比 。 总 体 来 看 , 本 文 在 选 
择 Accuracy 和 Fi 作为 评价 指标 的 情况 下 ,基于 提出 的 基 
于 属性 特征 的 情感 极 性 量化 算法 进行 情感 分 类 准确 性 明 
显 高 于 传统 机 器 学 习 方法 ,本 文采 用 改进 的 TFIDF 计算 
属性 因子 , 将 其 用 于 量化 算法 中 的 分 类 准确 率 明显 高 于 
等 权重 属性 因子 用 于 量化 算法 中 的 分 类 准确 率 。 

分 析 表 9 和 表 10, 对 照 实 验 1 与 本 文 算法 结果 对 
比 表明 , 属性 因子 在 情感 极 性 量化 计算 时 产生 较 大 影 
响 , 将 属性 因子 设置 为 等 权重 时 的 情感 分 类 准确 率 低 
于 属性 因子 不 等 权重 时 的 分 类 准确 率 , 这 与 评论 对 象 
的 不 同属 性 特征 会 对 购买 意向 产生 不 同 影响 相 吻 合 ， 
即 : 对 于 产品 或 服务 人 们 总 是 首先 关注 重要 性 程度 
高 的 属性 特征 评论 ,然后 关注 重要 性 程度 低 的 特征 。 
本 文选 择 酒店 评论 语 料 ， 计 算出 的 属性 因子 中 环境 、 
服务 属性 类 的 重要 性 程度 比较 高 , 设施 重要 性 次 之 ， 
而 交通 、 位 置 、 和 餐饮 的 重要 性 程度 相对 较 低 , 这 也 与 
社会 发 展 趋势 相 吻 合 ， 人 们 追求 高 质量 服务 、 环 境 和 
设施 高 于 低层 面 的 需求 。 

分 析 表 9 和 表 10, 对 照 实 验 2 与 本 文 算法 结果 表 
明 , 本 文 提出 的 基于 属性 特征 的 情感 量化 算法 在 情感 
分 类 准确 率 方面 高 于 传统 分 类 方法 , Fi 值 相 较 于 传统 
分 类 方法 也 相应 提高 。 传 统 情感 分 析 方 法 提取 出 的 文 
本 情感 特征 既 包 含 属性 情感 特征 又 包含 非 属性 情感 特 
征 ， 而 本 文 针 对 属性 词 集 抽取 出 评论 中 <Feature， 
Opinion> 对 ， 从 细 粒 度 角 度 人 研究 ,消除 了 非 属 性 情感 
特征 的 影响 , 设计 基于 属性 特征 的 情感 量化 算法 , 算 
法 实现 结果 表明 本 文 提出 的 基于 属性 特征 的 情感 极 性 
量化 算法 在 情感 分 类 方面 具有 较 高 准确 性 。 


6 总 结 及 展望 


本 文 从 评论 对 象 属性 级 别 进行 情感 极 性 量化 分 析 ， 
在 更 细 的 粒度 上 研究 用 户 针对 产品 特征 的 评价 .基于 三 
层 评论 模型 ， 即 情感 词 只 与 属性 特征 相关 , 评论 对 象 的 
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情感 与 属性 特征 的 情感 相关 的 前 提 ， 主要 针对 属性 情 
感 极 性 如 何 量化 进行 算法 设计 。 从 属性 层次 角度 出 发 抽 
取出 属性 词 集 和 基于 属性 词 的 评论 集 , 结合 属性 词 的 
重要 性 程度 、 情 感 词 、 情 感 程度 词 、 否 定 词 , 结合 语 境 
加 入 连词 , 在 计算 属性 因子 时 采用 改进 的 TFIDF 权重 
计算 方法 , 设计 基于 属性 特征 的 情感 极 性 量化 算法 。 最 
后 在 标注 好 的 语料库 上 进行 实验 验证 , 通过 设置 两 组 
对 照 实验 进行 比较 分 析 , 验证 了 本 文 提 出 的 算法 在 评 
论文 本 情感 分 类 方面 取得 了 比较 高 的 准确 率 。 

下 一 步 研 究 计 划 : 在 语 境 方面 , 考虑 语句 特殊 句 
型 ， 如 是 否 为 反问 句 、 感 叹 句 等 会 对 评论 句 情感 产生 
的 影响 , 在 研究 属性 特征 词 情感 倾向 时 考虑 如 何 将 属 
性 层级 情感 和 评论 文本 情感 倾向 结合 ; 在 领域 情感 词 
典 扩充 方面 ,考虑 不 同 领域 特定 情感 词 和 普通 情感 词 
结合 ,扩充 领域 情感 词 集 ; 属性 特征 词 集 抽取 方面 ， 
对 现存 的 属性 词 抽取 算法 予以 改进 , 抽取 出 评论 对 象 
的 更 加 完整 的 属性 词 集 。 
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Analyzing Sentiment Polarity of Comments Based on Attributes 


LiHui ChaliYaqing 
(School of Economics and Management, Xidian University, Xi "an 710126, China) 


Abstract: [Objective] This article tries to quantitatively study the sentiment polarity of online comments base on the 
targets” attributes. [Methods] First，we analyzed the comments by their objects, attributes and contents. Then, we 
extracted the attribute words and the corresponding comment sets. Third, we introduced the attribute factors and 
calculated their values with the modified TFIDF formula. Finally, we developed a quantitative analysis algorithm based 
on the attribute features with Python. [Results] Compared to the traditional machine learning classification algorithms 
(e.g., NB and SVM), our method improved the accuracy of sentiment classification, when the attribute factor was set to 
equal weight. [Limitations] The comments selection method and the coefficients parameters of the proposed algorithm 
need to be improved. [Conclusions] Our method could effectively improve the accuracy of the sentiment classification. 


Keywords: Comment Text Attribute Factor Comment Mode Sentiment Polarity 


自 出 版 图 书 在 2015 年 -2016 年 间 上 涨 8% 


根据 ProQuest 子 公司 Bowker 的 最 新 报告 , 自 2011 年 以 来 , 自 出 版 (Self-Publishing， 是 指 作者 在 没有 第 三 方 出 版 商 介入 
的 情况 下 ,利用 电子 图 书 平台 自主 出 版 书籍 或 多 媒体 产品 ,也 称 为 “原生 电子 书 ”) 的 国际 标准 书号 (ISBN) 的 数量 上 涨 了 
218.33%。2016 年 , 共有 786 935 份 ISBN 号 分 配给 自 出 版 的 作品 ; 而 在 2011 年 ， 这 个 数字 仅 是 247 210。 

Bowker 这 项 新 的 研究 凸显 了 以 印刷 或 电子 书 格式 进行 自 出 版 的 最 新 发 展 趋势 。 与 2015 年 相 比 , 2016 年 印刷 格式 的 自 出 
版 持续 增长 (11%)， 较 一 年 前 (34%) 有 所 下 滑 。 电 子 书 格式 的 自 出 版 则 略 有 下 降 ( 所 有 权 登 记 数量 下 降 了 3%), 但 与 上 年 相 比 ， 
下 降幅 度 变 小 (上 年 同比 下 降幅 度 为 11%)。 

Bowker 标识 服务 总 监 Beat Barblan 指出 : “总 的 来 说 , 我 们 认为 这 些 数字 意味 着 自 出 版 业 的 持续 成 熟 和 稳定 。 报 告 还 指出 ， 
自 出 版 业 由 三 家 服务 提供 商 主导 , 合计 占 去 年 出 版 的 印刷 和 电子 书籍 的 84% 以 上 。” 

Barblan 补充 说 :“ 跟 踪 这 些 趋势 ， 比 较 这 些 年 份 的 数据 ， 可 以 深入 了 解 这 一 行业 。 因 而 , 我 们 能 够 根据 当前 的 需求 ,向 独 
立 作者 提供 最 好 的 工具 和 支持 服务 。” 

(编译 自 : http://www.bowker.com/news/2017/Self-Publishing-ISBNs-Climbed-8-Between-2015-2016.html) 
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